智能论文笔记

组织病理学图像提供了癌症诊断的明确来源，其中包含病理学家用来识别和分类恶性疾病的信息，并指导治疗选择。这些图像包含大量信息，其中大部分目前不可用人类的解释。有监督的深度学习方法对于分类任务非常有力，但它们本质上受注释的成本和质量限制。因此，我们开发了组织形态表型学习，这是一种无监督的方法，它不需要注释，并且通过小图像瓷砖中的歧视性图像特征的自我发现进行操作。瓷砖分为形态上相似的簇，这些簇似乎代表了自然选择下出现的肿瘤生长的复发模式。这些簇具有不同的特征，可以使用正交方法识别。应用于肺癌组织，我们表明它们与患者的结局紧密保持一致，组织病理学识别的肿瘤类型和生长模式以及免疫表型的转录组度量。

translated by 谷歌翻译

由于其对金融服务，保险和医疗保健等许多行业的自动化业务工作流程的潜在影响，自动化信息提取的信息从格式的信息提取是一种压迫需求。关键挑战是这些业务工作流中的形式类似的文件可以在很多无限的方式下放出;因此，对此问题的良好解决方案应该概括到具有看不见的布局和语言的文档。此问题的解决方案需要对文档中的文本段和视觉提示的全面了解，这是非微不足道的。虽然自然语言处理和计算机视觉社区开始解决这个问题，但在（1）数据效率上没有大量关注（2）跨越不同文档类型和语言的能力。在本文中，我们认为，当我们只有少量标记的培训文件（〜50）时，从相当大的结构不同的较大标记的语料库中的简单转移学习方法产生高达27 f1点的改进，即在简单的训练上目标域中的小语料库。我们通过简单的多域转移学习方法改进了这一点，目前正在生产使用中，并表明这达到了8个F1点的改进。我们使数据效率至关重要，使信息提取系统能够扩展以处理数百种不同的文档类型，并且学习良好的表示对于实现这一目标是至关重要的。

translated by 谷歌翻译

本文提出了基于天线建模的精度，速度和一致性的各种神经网络和算法的比较。使用MATLAB NNTOOL，使用不同的网络和训练算法的不同组合来预测使用介电常数，基板高度和作为输入的操作频率的矩形微带天线的尺寸。网络的比较和表征基于精度，均方误差和培训时间来完成。另一方面，通过训练过程中的准确性，速度，可靠性和平滑度来分析算法。最后，分析了这些结果，并根据使用，优点和缺点对每个神经网络和算法进行建议。例如，观察到，减少的径向偏置网络是最准确的网络，并且缩放的共轭梯度是最可靠的电磁建模算法。本文将帮助研究人员直接找到最佳网络和算法而不进行时间采取实验。

translated by 谷歌翻译

Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages

Gowtham Ramesh , Sumanth Doddapaneni , Aravinth Bheemaraj , Mayank Jobanputra , Raghavan AK , Ajitesh Sharma , Sujit Sahoo , Harshita Diddee , Mahalakshmi J , Divyanshu Kakwani

分类：自然语言处理

2021-04-12

我们介绍Samanantar，是最大的公开可用的并行Corpora Collection，用于指示语言。该集合中的英语和11个上线语言之间总共包含4970万句对（来自两种语言系列）。具体而言，我们从现有的公共可用并行基层编译1240万句对，另外，从网络上挖掘3740万句对，导致4倍增加。我们通过组合许多语料库，工具和方法来挖掘网站的并行句子：（a）Web爬行单格式语料库，（b）文档OCR，用于从扫描的文档中提取句子，（c）用于对齐句子的多语言表示模型，以及（d）近似最近的邻居搜索搜索大量句子。人类评估新矿业的Corpora的样本验证了11种语言的高质量平行句子。此外，我们使用英语作为枢轴语言，从英式并行语料库中提取所有55个指示语言对之间的834百万句子对。我们培训了跨越Samanantar上所有这些语言的多语种NMT模型，这在公开可用的基准上表现出现有的模型和基准，例如弗洛雷斯，建立萨曼塔尔的效用。我们的数据和模型可在Https://indicnlp.ai4bharat.org/samanantar/上公开提供，我们希望他们能够帮助推进NMT和Multibingual NLP的研究。

translated by 谷歌翻译